智能论文笔记

胶囊网络在了解与视觉相关任务的2D数据中的空间关系方面表现出色。即使它们并非旨在捕获一维时间关系，但在时间表中，我们证明了鉴于能力，胶囊网络在理解时间关系方面表现出色。为此，我们沿时间和频道尺寸生成胶囊，从而创建两个时间特征检测器，以学习对比关系。时间代表通过在识别13个心电图（ECG）信号拍打类别方面达到96.21％的精度，超过了最新结果，同时在确定30类短音频命令时获得了AN-PAR结果。此外，胶囊网络固有学到的实例化参数使我们能够完全参数化1D信号，从而在信号处理中打开各种可能性。

translated by 谷歌翻译

交通灯检测对于自动驾驶汽车在城市地区安全导航至关重要。公开可用的交通灯数据集不足以开发用于检测提供重要导航信息的遥远交通信号灯的算法。我们介绍了一个新颖的基准交通灯数据集，该数据集使用一对涵盖城市和半城市道路的狭窄角度和广角摄像机捕获。我们提供1032张训练图像和813个同步图像对进行测试。此外，我们提供同步视频对进行定性分析。该数据集包括第1920 $ \ times $ 1080的分辨率图像，覆盖10个不同类别。此外，我们提出了一种用于结合两个相机输出的后处理算法。结果表明，与使用单个相机框架的传统方法相比，我们的技术可以在速度和准确性之间取得平衡。

translated by 谷歌翻译

预测周围动态剂的未来轨迹是自动驾驶中的必要要求。这些轨迹主要取决于周围的静态环境以及这些动态剂的过去运动。此外，代理意图的多模式性质使轨迹预测问题更具挑战性。所有现有模型都同样考虑目标剂以及周围的剂，而无需考虑物理特性的变化。在本文中，我们为自动驾驶中的多模式轨迹预测提供了一个新颖的基于深度学习的框架，该框架考虑了目标及周围车辆的物理特性，例如对象类及其物理尺寸通过加权注意模块，从而改善预测的准确性。我们的模型在Nuscenes轨迹预测基准测试中取得了最高的结果，这些模型是使用栅格图来输入环境信息的模型。此外，我们的模型能够实时运行，达到300 fps的高推理率。

translated by 谷歌翻译

KORSAL: Key-point Detection based Online Real-Time Spatio-Temporal Action Localization

Kalana Abeywardena , Shechem Sumanthiran , Sakuna Jayasundara , Sachira Karunasena , Ranga Rodrigo , Peshala Jayasekara

分类：计算机视觉

2021-11-05

视频中的实时和在线行动本地化是一个关键但极具挑战性的问题。准确的行动定位需要利用时间和空间信息。最近的尝试通过使用计算密集的3D CNN架构或高度冗余的双流架构来实现这一目标，使它们既不适用于实时在线应用程序。为了在高度挑战的实时约束下完成活动本地化，我们提出利用基于快速高效的关键点的边界框预测到空间本地化动作。然后，我们介绍一种管链接算法，其在闭塞存在下在时间上保持动作管的连续性。此外，我们通过将时间和空间信息与级联输入组合到单个网络的级联输入来消除对双流架构的需要，允许网络从两种类型的信息中学习。使用结构相似索引图有效地提取了时间信息，而不是计算密集的光学流量。尽管我们的方法简单，我们的轻质端到端架构在挑战的UCF101-24数据集上实现了最先进的框架地图，达到了74.7％，展示了以前最好的在线方法的性能增益为6.4％。与在线和离线方法两者相比，我们还实现了最先进的视频地图结果。此外，我们的模型实现了41.8 FPS的帧速率，这是对当代实时方法的10.7％。

translated by 谷歌翻译